[レポート] Innovations in AWS analytics Zero-ETL and data integrations #AWSreInvent #ANT348
はじめに
データ事業本部のおざわです。
初参加で大興奮したre:Invent2024から帰国し、仙台に戻ってきました。寒いです。ご存知の方も多いかもしれませんが、海外から持ってきてしまった小銭はJRの駅構内に設置されているPOCKET CHANGEで電子マネーに交換できます。小銭が余った方は行ってみてください。
今回は、Zero-ETL統合についてのブレイクアウトセッション「Innovations in AWS analytics: Zero-ETL and data integrations」のレポートです。
セッション情報
Innovations in AWS analytics: Zero-ETL and data integrations
Join this session to learn how AWS analytics services can help you achieve your data integration goals with exceptional price performance. Explore new capabilities, like zero-ETL integrations, that allow your users to access all their data; easily prepare it for analytics, machine learning, and generative AI workloads; build and maintain scalable and resilient data pipelines; and enhance decision-making quality.
本セッションでは、AWSのアナリティクスサービスが、卓越したコストパフォーマンスでデータ統合の目標を達成するためにどのように役立つかをご紹介します。ユーザーがすべてのデータにアクセスし、アナリティクス、機械学習、およびジェネレーティブAIのワークロード用に簡単に準備し、スケーラブルで弾力性のあるデータパイプラインを構築して維持し、意思決定の質を高めることを可能にするゼロETL統合などの新機能をご覧ください。
Speakers
- Paul Van Liew, Director, Platform Engineering, Motive
- Jyoti Aggarwal, Sr. PMT-ES, Amazon.com
- Harshida Patel, Principal Analytics Specialist SA, AWS
セッション動画
セッション内容
本セッションでは、Zero-ETL統合の3つのパターンを紹介しています。
最初はAurora PostgreSQLを例にしたリレーショナルデータベースからのZero-ETL統合です。続いてDynamoDBのようなNoSQLデータベースからのZero−ETL統合の説明があります。そして最後、発表されたばかりのアプリケーションからのZero-ETL統合についても共有がありました。
また、事例としてMotive社のデータ環境がZero-ETL統合によってどのように変化したのかについても話がありました。以下では、気になった点をピックアップしてご紹介したいと思います。
現状の課題
データパイプラインを構築し、運用していく課題について説明がありました。構築も運用も簡単ではありませんよね。
独自のデータパイプラインを維持するべき理由として、ストリーミング分析や下流で複数のアプリケーションにデータを渡す場合などがあるが、もしRedshiftでデータ分析を行うことが目的であれば、Zero-ETLは有効な選択肢になるとのことです。
Zero-ETL統合
現状、Zero-ETL統合でサポートされている12のソースが紹介されています。
Relational Database
リレーショナルデータベースからのZero-ETL統合について説明がありました。
ソースのスナップショットから初期データが作成され、以降ソースへの変更がCDCによってRedshiftに同期されていきます。フィルターを設定することで同期対象となるスキーマ、テーブルを選択することができます。
フィルターの設定画面をスライドに投影して説明してくれるためイメージがしやすいです。ここでは、ソースのAurora PostgreSQLのzeroetl_dbというデータベース配下のすべてのスキーマとテーブルをincludeした後、nationというテーブルをexcludeしています。
リレーショナルデータベースからのZero-ETL統合については、こちらのブログ記事で検証されていますので、あわせてご参照ください。
NoSQL
続いてNoSQLからのZero-ETL統合です。ウィザードを使用して設定を行うとポイントインタイムリカバリが有効化され、Export APIでデータがS3にアンロードされます。これによって読み取りキャパシティユニット(RCU)を消費せず、テーブルのパフォーマンスや可用性への影響を最小限にしてRedshiftにデータが同期できます。
DynamoDBからのZero-ETL統合についてもこちらのブログで検証されていますのでご確認ください。
8 Applications
re:Invent 2024で発表されたアプリケーションからのZero-ETL統合では、Salesforceをソースのアプリケーションにした例が紹介されていました。
Motive社の事例
最後にZero-ETLをプロダクション環境で使用している企業として、Motive社の事例が紹介されています。
Motive社は、トラックのような運搬車両や工場内での積み下ろし作業に使用する車両といった各種車両を扱う企業に対して統合的なソリューションを提供しています。工場や車両内に設置されたカメラや数々のセンサーからデータを収集し、運搬状況やドライバーの安全確認、支払いの管理といった幅広い範囲をカバーしています。
Zero-ETL統合のBefore/Afterのアーキテクチャ図が紹介されました。Afterではかなりシンプル化されていることが見えます。
そしてZero-ETL統合の結果についても共有されました。Latencyのところに記載がありますが、いままでDynamoDBのデータ同期を待っていた3時間が15分に短縮されたそうです。また、データ転送など各種AWS利用費の削減だけでなくコネクターの使用料等が大幅に減ったことにより、$120K/年のコスト削減が可能になったそうです。
さらに今後の対応で他のパイプラインもZero-ETLにしていくことで、年間$750Kものコスト削減を見込んでいるとのことでした。
おわりに
実際の設定画面のデモだけでなく事例紹介まで用意されていて、Zero-ETL統合のすばらしさが実感できるセッションでした。Zero-ETL統合についてはDevelopersIOでも複数のブログ記事がありますので、こちらもぜひご覧いただければと思います。